Hadoop k-means 算法实现 博客

经过昨天的准备工作,今天基本就可以编写整个k-means算法程序了。今天编写的时候遇到了一个问题,是combine操作时遇到的问题。除了这个问题基本都按照原来的思路进行。先说下我的思路吧。 准备工作:在上传数据文件到HDFS上之前,先应该产生一个中心文件,比如我的输入文件如下: 0.0 0.2 0.4 0.3 0.2 0.4 0.4 0.2 0.4 0.5 0.2 0.4 5.0 5.2 5.4

Hadoopp 2012-09-28   6420   0

K-Means 算法 经验

最近在学习一些数据挖掘的算法,看到了这个算法,也许这个算法对你来说很简单,但对我来说,我是一个初学者,我在网上翻看了很多资料,发现中文社区没有把这个问题讲得很全面很清楚的文章,所以,把我的学习笔记记录下来,分享给大家。

jopen 2012-06-29   46620   0
算法  

K-means算法 经验

K-means算法

jopen 2013-12-14   32207   0
算法  

利用Mahout实现在Hadoop上运行K-Means算法 经验

Mahout是Apache下的开源机器学习软件包,目前实现的机器学习算法主要包含有协同过滤/推荐引擎,聚类和分类三 个部分。Mahout从设计开始就旨在建立可扩展的机器学习软件包,用于处理大数据机器学习的问题,当你正在研究的数据量大到不能在一台机器上运行时,就 可以选择使用Mahout,让你的数据在Hadoop集群的进行分析。Mahout某些部分的实现直接创建在Hadoop之上,这就使得其具有进行大数据 处理的能力,也是Mahout最大的优势所在。相比较于Weka,RapidMiner等 图形化的机器学习软件,Mahout只提供机器学习的程序包(library),不提供用户图形界面,并且Mahout并不包含所有的机器学习算法实现, 这一点可以算得上是她的一个劣势,但前面提到过Mahout并不是“又一个机器学习软件”,而是要成为一个“可扩展的用于处理大数据的机器学习软件”,但 是我相信会有越来越多的机器学习算法会在Mahout上面实现。[

jopen 2013-12-06   71565   0
Mahout   Hadoop   算法  
P3

  K-Means聚类示例 文档

简介(1)K-means算法将数据对象描述成n唯空间中的点,用向量表示;算法随机选择K个点,作为簇的中心,然后根据其余点与簇心的距离,将其分配到最近簇中去;接着重新计算每个簇的中心(通过其包含的所有向量的平均值),然后重新划分所有点的簇归属,如此迭代直到过程收敛。K-means简单高效,但K值(即簇的数量)和初始簇心选取的合理性会对聚类效果产生较大影响。

songyl525 2013-12-11   672   0

K-means算法(Spark Demo) 代码段

import java.util.Random import spark.SparkContext import spark.SparkContext._ import spark.examples.Vector._ object SparkKMeans { /** * line -> vector */ def parseVector (line: String) : Vector = { re

ye34 2015-01-06   10217   2
算法  

K-means聚类算法 资讯

K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。

jopen 2015-07-04   11856   0
算法  

机器学习实战ByMatlab(3):K-means算法 经验

K-means算法属于无监督学习聚类算法,其计算步骤还是挺简单的,思想也挺容易理解,而且还可以在思想中体会到EM算法的思想。

fff8 2015-05-26   50946   0

【Python】图像主色的 K-Means 分析 经验

在我先前的博文中,我介绍了如何从网站上抓取图片信息。如果说从网上抓取图片非常容易实现,那么如何对这些图像进行排序分类则稍微复杂一点。这个问题的关键在于,我们没有一套寻找图像主色的标准方法,不同的方法会产生不同的结果。

www345 2015-11-16   29881   0

机器学习六--K-means聚类算法 经验

想想常见的分类算法有决策树、Logistic 回归、 SVM 、贝叶斯等。 分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,想想如果给你50 个 G 这么大的文本,里面已经分好词,这时需要将其按照给定的几十个关键字进行划分归类,监督学习的方法确实有点困难,而且也不划算,前期工作做得太多了。

jopen 2015-11-01   25639   0

在内存中执行k-means聚类算法 经验

在内存中执行k-means聚类算法

DeliaPitt 2016-02-28   20084   0
算法  

K-Means聚类的Python实践 经验

K-Means应该是最简单的聚类算法之一了吧,理论上很简单,就是随即初始化几个中心点,不断的把他们周围的对象聚集起来,然后根据这群对象的重置中心点,不断的迭代,最终找到最合适的几个中心点,就算完成了。

清风无岸 2017-02-12   13072   0

Hadoop 开源项目

Hadoop是一个用于运行应用程序在大型集群的廉价硬件设备上的框架。Hadoop为应用程序透明的提供了一组稳定/可靠的接口和数据运动。在Hadoop中实现了Google的MapReduce算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行。此外,Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率。由于应用了map/

码头工人 2019-01-17   890   0

hadoop 博客

找hadoop找到这里,留个脚印

qooxdoo 2010-11-28   1466   0
P7

  Hadoop实战-初级部分 之 Hadoop IO 文档

  HDFS以透明方式校验所有写入它的数据,并在默认设置下,会在读取数据时验证校验和。针对数据的每个io.bytes.per.checksum(默认512字节)字节,都会创建一个单独的校验和。 数据节点负责在存储数据及其校验和之前验证它们收到的数据。 从客户端和其它数据节点复制过来的数据。客户端写入数据并且将它发送到一个数据节点管线中,在管线的最后一个数据节点验证校验和。

singing 2014-01-07   2012   0
P2

  Hadoop 认识 文档

一.Hadoop核心角色hadoop框架Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondaryNameNode,JobTracker,TaskTracker组成。其中NameNode,secondaryNameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上。 1,NameNodeNameNode是HDFS的守护程序,负责记录文件是如何分割成数据块的,以及这些数据块被存储到哪些数据节点上。它的功能是对内存及I/O进行集中管理。

zhezi7 2012-10-08   2833   0
P

Hadoop API 文档

Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。<br> Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

mimosa1987 2013-01-04   1259   0
P3

  hadoop 安装 文档

一、安装sun的jdk和hadoop,不要使用open-jdk本人安装的jdk1.7.0.rpm包(默认安装路劲为/usr/java/jdk1.7.0)解压hadoop-0.20.2到:/home/hadoop/。

gps2012 2013-01-14   525   0
P6

  Hadoop入门 文档

Hadoop是Google MapReduce 的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。

ck614 2010-11-10   4010   0
P

Hadoop 入门 文档

Hadoop作为Apache基金会资助的开源项目,由Doug Cutting带领的团队进行开发,基于Lucene和Nutch等开源项目,实现了Google的GFS和Hadoop能够稳定运行在20个节点的集群;2006年1月,Doug Cutting加入雅虎公司,同年2月Apache Hadoop项目正式支持HDFS和MapReduce的独立开发。同时,新兴公司Cloudera为Hadoop提供了商业支持,帮助企业实现标准化安装,并志愿贡献社区。Hadoop的最新版本是0.21.0,说明其还在不断完善发展之中。<br> Hadoop由分布式存储HDFS和分布式计算MapReduce两部分组成。HDFS是一个master/slave的结构,就通常的部署来说,在master上只运行一个Namenode,而在每一个slave上运行一个Datanode。MapReduce是Google的一项重要技术,它是一个编程模型,用以进行大数据量的计算。MapReduce的名字源于这个模型中的两项核心操作:Map和Reduce。Map是把一组数据一对一的映射为另外的一组数据,Reduce是对一组数据进行归约,映射和归约的规则都由一个函数指定。

Bluth 2012-12-25   321   0
1 2 3 4 5 6 7 8 9 10